Day 3 - 機器學習的基本流程與重要步驟 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 3

AI/ ML & Data

征服機器學習的終極秘技系列第 3 篇

Day 3 - 機器學習的基本流程與重要步驟

16th鐵人賽

籃板工程師之 AI 戰神

團隊為了AI而AI

2024-09-04 10:36:57

1248 瀏覽

分享至

前言

在上一篇文章中，我們探討了機器學習的基本類型，包括監督式學習和非監督式學習。監督式學習通過使用已標註的數據（有答案）來訓練模型，進行數據的預測或分類。在本篇文章中，我們將深入探討機器學習的基本流程與重要步驟，並集中於監督式學習。為什麼我們要先深入探討監督式學習呢？因為監督式學習是機器學習中最常見和基礎的方法之一，不僅應用廣泛，也是理解機器學習核心概念的重要基礎。

［自行製圖］

上圖是筆者在學習 ML 的過程中，整理出的一套自己理解的系統。這些步驟概述了機器學習的一般流程，幫助更好地理解和應用這些技術來解決實際問題。在接下來的文章中，我們將逐步深入探討每個步驟的具體功能、相關名詞的解釋，以及如何在實際中應用這些步驟來建立機器學習模型並做預測。

機器學習的基本步驟概述

首先，讓我們簡要介紹每個步驟的功能：

1. 問題定義及數據收集

第一步是清楚定義問題，明確我們要解決的問題類型，例如上一篇文章提到的分類問題或回歸問題。千萬不要沒確認題目就陷進去硬玩 ML 啊~~ (筆者先在這裡留個易踩坑的伏筆)
題目確定後就要開始收集數據啦~~ (請記得要收集與問題相關的數據)

2. 資料探勘及數據清理

收集完數據後我們要對原始數據進行數據分析，他有一個名稱叫探索性分析 (EDA)。此步驟是要了解每一個參數的實質意義、了解參數之間的統計分布情況。
接著需要了解收到的數據是否有問題，比如極端值/ 異常值、缺失值、重複數據，並做相對應的處理。這些問題如果不解決，會對後續的分析和模型訓練產生負面影響。 (後面文章會詳細提及)

3. 特徵工程

從原始數據中提取有意義的特徵，因為良好的特徵工程對模型效果有重大影響。機器在學習時，往往只看得懂數字而非類別，因此為了讓機器能夠學習，會需要進行編碼，例如，將分類變數轉換為數字表示，或進行標準化處理，使數據符合模型的輸入規範。

4. 數據集切分

需再度確認數據完整性並將數據拆分為訓練集、驗證集和測試集。 這步驟是數據預處理的其中一環，顧名思義就是在後續的模型訓練、調參、評估步驟中都會使用到的數據進行預備處理。

5. 演算法建立

依據想解決的題目問題屬性去選擇合適的算法，此算法又稱作演算法。在訓練集數據套用演算法所做出來的結果又稱作模型。演算法會依據不同要解決的問題如回歸、分類問題而有不同做法。選擇合適的演算法和模型架構，是模型訓練成功的關鍵之一。

6. 模型評估及優化